智能论文笔记

An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System

Juan Gómez-Luna , Yuxin Guo , Sylvan Brocard , Julien Legriel , Remy Cimadomo , Geraldo F. Oliveira , Gagandeep Singh , Onur Mutlu

分类：人工智能 | 机器学习

2022-07-16

训练机学习（ML）算法是一个计算密集型过程，由于反复访问大型培训数据集，经常会陷入内存。结果，以处理器为中心的系统（例如CPU，GPU）遭受了内存单元和处理单元之间的昂贵数据移动，这会消耗大量的能量和执行周期。以内存为中心的计算系统，即具有内存（PIM）功能，可以减轻此数据运动瓶颈。我们的目标是了解现代通用PIM体系结构加速ML培训的潜力。为此，我们（1）在现实世界通用PIM体系结构上实现了几种代表性的经典ML算法（即线性回归，逻辑回归，决策树，K-均值聚类），（2）严格评估并表征它们在准确性，性能和缩放方面以及（3）与CPU和GPU上的对应物实现相比。我们对具有2500多个PIM核心的真实内存计算系统的评估表明，当PIM硬件在必要的操作和数据类型上，通用PIM架构可以极大地加速内存的ML工作负载。例如，我们对决策树的PIM实施比8核Intel Xeon上的最先进的CPU版本$ 27 \ times $ $，并且比最先进的GPU快$ 1.34 \ times $ $ NVIDIA A100上的版本。我们在PIM上的K-Means聚类分别为$ 2.8 \ times $和$ 3.2 \ times $ $，分别是最先进的CPU和GPU版本。据我们所知，我们的工作是第一个评估现实世界中PIM架构的ML培训的工作。我们以关键的观察，外卖和建议结束，可以激发ML工作负载的用户，PIM架构的程序员以及未来以内存计算系统的硬件设计师和架构师。

translated by 谷歌翻译

训练机学习算法是一个计算密集型过程，由于反复访问大型培训数据集，因此经常会限制内存。结果，以处理器为中心的系统（例如CPU，GPU）遭受了内存单元和处理单元之间的昂贵数据移动，这会消耗大量的能量和执行周期。以内存为中心的计算系统，即具有内存处理（PIM）功能的计算系统，可以减轻此数据运动瓶颈。我们的目标是了解现代通用PIM体系结构加速机器学习培训的潜力。为此，我们（1）将几种代表性的经典机器学习算法（即线性回归，逻辑回归，决策树，K-均值聚类）上实现在现实世界通用PIM架构上（2）以术语来表征它们与CPU和GPU上的同行实现相比，（3）将其准确性，性能和缩放率进行比较。我们对具有2500多个PIM核心的内存计算系统进行的实验评估表明，当PIM硬件在必要的操作和数据类型上，通用PIM体系结构可以极大地加速记忆的机器学习工作负载。据我们所知，我们的工作是第一个评估现实世界通用PIM体系结构的机器学习算法培训的工作。

translated by 谷歌翻译